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问卷 调查 中 被 试 不 认真 作答 的 控制 与 识别 
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$E 要 问卷 调查 是 心理 与 教育 领域 十 分 常见 的 数据 收集 方法 , 而 被 试 的 不 认真 作答 可 能 导致 问卷 数据 失 

真 。 回 顾 已 有 研究 发 现 : (a) 不 认真 作答 可 以 从 外 在 作答 模式 和 内 在 产生 原因 两 个 方向 进行 定义 ; (b) 不 认真 作 

答 的 常见 事前 控制 方法 主要 包括 降低 任务 难度 以 及 提高 被 试 作答 动机 两 大 类 ; (c) 事 后 识别 方法 主要 包括 嵌入 

识别 量 表 、 作 答 模 式 识别 、 反 应 时 识别 三 大 类 ,今后 的 研究 中 应 基于 作答 机 制 的 研究 优化 与 开发 控制 方法 ， 检 
验 作 答 识 别 方法 的 跨 情境 适用 性 并 开发 新 方法 ， 并 对 局 部 不 认真 的 识别 与 处 理 进行 更 深入 的 探讨 。 

关键 词 。 不 认真 作答 ， 数 据 清理 ,无 效 数据 ， 调查 问卷 设计 
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在 科学 研究 中 ， 当 研究 者 将 所 要 调查 的 内 容 独 的 维度 (Woods, 2006)。 第 二 ,形成 随机 (random) 
具体 化 为 一 系列 有 机 联系 的 可 测 指标 ， 进 而 编制 数据 或 奇异 值 (outlier)， 进 而 影响 随后 的 推断 与 决 
成 问题 表格 或 短 本 ( 刘 音 华 ， 陈 远 ，1991)， 旨 在 测 策 (Barge & Gehlbach, 2012; Huang et al., 2015; 
量 人 的 行为 或 态度 时 ， 就 形成 了 问卷 (车 文博 ， Zijlstra et al，2011)， 例 如 影响 百 分 等 级 评分 
2001)。 问 卷 调查 是 社会 科学 研究 中 十 分 常见 的 数 (Zijlstra et al., 2011)、 和 夸大 或 缩小 变量 间 的 相关 等 
据 收 集 方式 , 但 是 , 通过 这 种 方式 获得 的 数据 容 (Credé, 2010; Holtzman & Donnellan, 2017; Huang 
易 包 含 较 多 测量 误差 ,因此 在 基于 数据 建 模 、 推 et al., 2015; Schneider et al., 2018). 


Bi 决策 之 前 需要 对 其 进行 筛选 ,以 识别 和 纠正 随 着 电子 问卷 使 用 的 愈加 广泛 (Evans & 
这 些 不 正确 的 结果 (Huang et al., 2012). Mathur, 2005; Lloyd & Devine, 2010), 问卷 提交 的 


在 这 些 误差 中 , 不 认真 作答 是 既 常 见 、 又 往 便利 性 (Johnson，2005) 、 作 答 的 匿名 性 (Meade & 
往 因 难以 处 理 而 被 忽视 的 因素 之 一 。 研 究 表明 ， Craig, 2012), 、 作 答 环 境 的 不 可 控 (Barge & 
在 大 多 数 问卷 调查 中 不 认真 作答 的 发 生 率 从 1% Gehlbach, 2012; Carrier et al., 2009; Meade & 
(Gough & Bradley, 1996)#!] 30% (Burns et al., 2014) Craig，2012) 、 主 试 与 被 试 互 动 的 减少 (Francavilla 
不 等 。 不 认真 作答 会 污染 数据 结果 ,大 大 降低 数 et al., 2019; Johnson, 2005; Ward & Meade, 2018; 
an 如 不 加 处 理 ， 可 能 会 掩盖 有 意义 的 Zhang & Conrad, 2018) 等 原因 会 大 大 增加 不 认真 
结果 、 产 生 虚 假 结果 (Curran,，2016; Maniaci & 作答 的 风险 (Ward & Pond, 2015)。 基于 此 ， 本 文 对 
Rogge, 2014)。 其 影响 主要 包括 : 第 一 ,影响 测量 相关 研究 进行 系统 概括 和 总 结 ， 以 期 提高 研究 者 
TRHA AJE (DeSimone et al, 2018; Kam & 与 实践 者 对 问卷 不 认真 作答 的 重视 ， 并 为 其 选用 
Meyer, 2015; Zijlstra et al., 2011)， 例 如 ， 单 维 量 表 控制 与 识别 方法 提供 参考 :首先 梳理 了 国外 研究 
中 的 反 向 表述 题 越 容易 从 正 向 表述 题 中 脱离 成 单 中 不 认真 作答 的 相关 概念 以 明确 其 范畴 ,之 后 分 
别 总 结 不 认真 作答 的 控制 与 识别 技术 , 最 后 对 未 
来 研究 的 方向 做 了 展望 。 
收 稿 日 期 : 2020-04-27 
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一 的 术语 ， 且 不 同 研究 使 用 的 术语 存在 微妙 的 差 
al, 这 些 术 语 主要 有 两 个 侧重 方向 : 外 在 作答 模 
式 和 内 在 产生 原因 。 
1.1 外 在 作答 模式 

不 认真 作答 的 其 中 一 类 概念 着 重 描述 外 显 结 
果 ， 即 作答 模式 (response patternm)， 多 指 李 克 特 式 
量 表 中 的 选项 分 布 。 例 如 被 研究 者 广泛 采用 的 术 
语 随 机 作答 (random responding)， 即 被 试 在 问卷 
中 随机 地 色 选 (Beach，1989; Berry et al, 1992; 
Marjanovic et al., 2015)。 但 也 有 人 研究 者 指出 , 不 认 
真 作答 可 能 呈现 出 非 随机 的 模式 (Meade & Craig, 
2012)， 例 如 直线 作答 (straight-lining & 
nondifferentiation) (Curran, 2016; Fang et al., 2016; 
Huang et al., 2012; Meade & Craig, 2012)， 或 按照 
无 意义 的 规律 选择 
Grau 等 人 (2019) 也 发 现 不 认真 作答 与 特定 作答 风 


答案 等 (Dunn et al., 2018)。 此 外 ， 


2010; Meade & Craig, 2012)。 然 而 ， 由 于 不 认真 作 
答 模式 复杂 多 样 难以 穷 举 ,， 仅 从 模式 表现 上 的 描 
述 会 造成 对 该 概念 的 罕 化 。 
12 ”内 在 产生 原因 

为 了 避免 上 述 的 窗 化 ,有 研究 者 在 定义 时 更 
侧重 不 认真 作答 的 产生 原因 。Krosnick (1991) 认 为 
被 试 作 答 的 努力 程度 是 一 个 从 理想 最 大 值 
(optimization) 到 完全 不 努力 的 连续 体 ， 任 务 难度 、 
被 试 能 力 和 被 试 作答 动机 共同 影响 了 被 试 在 这 一 
连续 体 上 的 位 置 。Zhang (2013) 将 这 一 理论 进一步 
细 化 ， 区 分 了 努力 程度 的 理想 最 大 值 (a)、 可 达到 
最 大 值 (attainable maximum) (b)、 实 际 值 (actual) (c) 
三 个 节点 。 其 中 任务 难度 和 被 试 能 力 决定 了 可 达 
到 最 大 值 (b) 的 位 置 ， 被 试 作答 动机 决定 了 实际 值 
(c) 的 位 置 (如 图 2 所 示 )。 不 认真 作答 则 是 被 试 因 
为 作答 动机 较 低 ， 从 而 出 现 不 遵循 问卷 的 指导 


z 


T& (response style) 存 在 一 定 程 度 的 重合 。 各 作答 模 
式 示例 如 图 1 所 示 。 

这 些 研究 直观 地 描述 了 不 认真 作答 外 显 的 作 
A& X, 同时 认可 这 些 模式 产生 的 原因 是 被 试 的 
不 努力 、 不 认真 。 这 种 “不 努力 ”恰恰 是 不 认真 作 
答 与 社会 称许 性 反应 (social desirability 
responding) 的 差别 一 一 社会 称许 性 反应 也 可 能 表 
现 为 特定 的 作答 风格 (He & van de 2013， 
2015a, 2015b, 2016), 但 它 并 非 减少 了 答题 过 程 中 
的 认 知 负荷 ， 反 而 “需要 额外 认 知 努力 ”(Grau et 
al., 2019; Maniaci & Rogge, 2014; McGrath et al., 


bz 


语 、 没 有 精准 地 理解 题目 内 容 、 没 有 提供 准确 回 
答 的 行为 Bowling et al., 2016; Huang et al., 2012; 
Meade & Craig, 2012)。 这 类 概念 包括 缺乏 努力 的 
作答 (insufficient effort is (Huang et al., 
2012)、 粗 心 的 作答 (careless responding) (Grau et 
al., 2019; Johnson, 2005; Meade & Craig, 2012), dE 
48 ATI E (disengaged responding) (Soland et al., 
2019), WéiEFTA(shirking behavior) (Fang et al., 
2016)、 不 专心 (inattention) (Johnson, 2005; Maniaci 
& Rogge, 2014; Meade & Craig, 2012)、 令 自我 满 
意 的 作答 行为 (satisficing behaviors) (Anduiza & 


按照 无 意义 的 规律 选择 答案 


特定 作答 风格 
(如 , 默许 肯定 风格 ) 


图 1 各 类 作答 模式 示例 
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e (a) 理想 最 大 值 


(Optimization) 
任务 难度 


© (b) 可 达到 最 大 值 


被 试 能 力 (Attainable maximum) 


理想 最 大 值 (Optimization) 


实际 努力 程度 


被 试 作答 动机 € (o) 实际 值 (Actual) 
被 试 作答 动机 


完全 不 努力 
Krosnick(1991) 的 理论 框架 


Zhang(2013) 的 理论 框架 


tud 


图 2  Krosnick (1991) Zhang (2013) 的 理论 框架 
图 片 来 源 : Zhang, 2013 


Galais, 2017; Barge & Gehlbach, 2012; Zhang & 
Conrad, 2018) 等 等 。 试 的 疲劳 感 。 若 问卷 过 长 ， 被 试 在 作答 至 问卷 中 

以 上 两 类 术语 从 两 个 侧面 对 不 认真 作答 进行 间或 靠 后 的 位 置 时 ， 可 能 精力 不 足 ,， 注意 无 法 持 
了 描述 或 定义 ， 二 者 并 不 冲突 ,上 且 在 相互 补充 之 续集 中 ( 卫 旭 华 ,， 张 亮 花 ，2019)， 或 产生 厌烦 感 和 
F, 丰富 了 不 认真 作答 的 内 涵 。 基 于 这 些 术语 ， 有 枯燥 感 ， 出 现 不 认真 作答 的 现象 [Baer et al., 1997; 
人 研究 者 提出 , 不 认真 作答 可 以 被 定义 为 , 个 体 在 Berry et al., 1992)。 实 证 人 研究 证 明 , 单 次 填 答 较 长 
作答 问卷 过 程 中 因 动 机 不 足 而 表现 出 的 不 遵从 题 的 调查 问卷 会 对 数据 质量 产生 负面 影响 (Nguyen， 
目 要 求 ， 或 未 仔细 阅读 题目 内 容 便 做 出 回答 的 作 2017)。 因 此 有 研究 者 建议 ， 当 被 测量 构 念 是 定义 
答 模 式 ， 其 外 显 形式 包括 随机 作答 、 直 线 作答 等 清晰 的 单 维 构 念 且 非 研究 中 的 核心 构 念 时 ,尤其 
等 (Huang et al., 2012)。 是 在 大 样本 、 时 间 受 限 的 研究 中 ， 对 同一 构 念 的 
2 不 认真 作答 的 事前 控制 测量 可 以 采用 单 题 项 的 方式 缩短 问卷 ， 以 提高 数 


据 收集 的 有 效 性 ( 卫 旭 华 ， 张 亮 花 , 2019)。 
事前 控制 指 在 编制 问卷 或 施 测 时 通过 某 种 方 


Ennis, 2013); 另 一 方面 体现 在 缩短 问卷 ,降低 被 


2.2 ”提高 作答 动机 
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法 阻止 或 者 减少 被 试 作 管 不 认真 的 现象 。 控 制 方 
法 主要 分 为 两 大 类 ,第 一 ， 降低 任务 难度 以 提高 
努力 程度 的 可 达到 最 大 值 ， 常 见 手段 为 调整 问卷 
表述 与 长 度 。 第 二 ， 提 高 作答 动机 从 而 提高 努力 
程度 的 实际 值 ， 常 见 手段 有 施加 外 部 奖惩 、 要 求 
被 试 承诺 认真 作答 以 及 提供 反馈 增加 社会 互动 。 
21 降低 任务 难度 

依据 Zhang (2013) 的 理论 , 任务 难度 会 影响 
被 试 的 努力 程度 中 可 达到 的 最 大 值 。 而 在 调查 问 
卷 中 ， 降 低 任务 难度 一 方面 体现 在 为 被 试 提供 清 
晰 、 合 适 、 易 于 理解 的 指导 语 和 题目 表述 ， 进 而 
减轻 被 试 认 知 加 工 负担 (Garcfa, 2011; Rousseau & 


不 认真 作答 的 事前 控制 更 多 着 力 于 激发 被 试 
的 作答 动机 ， 以 提高 被 试 努力 程度 的 实际 值 。 当 
被 试 不 愿意 或 不 认为 自己 应 当 对 结果 负责 时 ， 就 
不 会 持 谨慎 的 态度 ， 实 际 认 真 程度 会 远 低 于 最 大 
可 能 的 认真 程度 (Ward & Meade, 2018)。 而 提高 被 
试 作答 动机 主要 包含 以 下 几 种 方式 : 

1) 施 加 外 部 奖惩 。 由 于 大 多 数 问卷 调查 对 被 
试 而 言 是 低 利 害 或 无 趣 的 ( 卫 旭 华 ， 张 亮 花 ，2019)， 
所 以 问卷 自身 无 法 使 被 试 保持 较 高 的 作答 动机 ， 
因而 需要 一 些 外 部 的 奖励 或 警告 。 其 中 ， 外 部 奖 
励 (如 被 试 费 ) 是 吸引 被 试 填 答 问 卷 的 常见 手段 。 但 
当 奖 励 的 目的 性 过 强 时 ， 被 试 可 能 会 为 了 获得 奖 
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励 而 随意 应 付 调查 (Barge & Gehlbach, 2012; 
Maniaci & Rogge, 2014)。 因 此 除了 奖励 ， 警 告 也 
是 有 必要 的 。 警 告 通 常 出 现在 指导 语 中 ， 例 如 告 
知 被 试 调查 结束 后 研究 者 会 采用 统计 手段 评估 作 
答 质量 ,将 有 问题 的 数据 剔除 ， 或 将 数据 质量 反 
馈 给 被 试 ， 甚至 对 不 认真 作答 的 被 试 有 所 惩罚 (如 
不 支付 被 试 费 等 )。 有 研究 表明 ,警告 对 控制 不 认 
真 作答 有 显著 的 效果 (Huang et al., 2012; Ward & 
Pond, 2015)。 

2) 要 求 被 试 承诺 认真 作答 。 一 旦 人 们 明确 承 
诺 一 个 行动 或 立场 ,他 们 倾向 于 以 与 承诺 相 一 致 
的 方式 行事 (Cialdini, 2001). 但 直接 的 承诺 未 必 能 
达到 理想 的 效果 ，Cibelli (2017) 在 实验 中 要 求 被 
试 承诺 “认真 思考 、 努 力 回 忆 、 花 时 间 填 答 ” 以 增 
加 被 试 的 责任 感 。 实 验 结果 显示 承 庄 在 提高 作答 
质量 上 作用 有 限 ， 仅 能 使 得 被 试 在 难题 (如 ， 主 观 
题 ) 上 付出 更 多 努力 。 此 外 , 被 试 填 答 时 往往 会 无 
视 指导 语 ， 因 此 有 研究 者 提出 可 以 通过 在 问卷 前 
设置 指示 题 (instructional manipulation checks) 提 
醒 被 试 认真 作答 ,被 试 只 有 正确 回答 指示 题 才 可 
以 继续 填 答 问卷 。Oppenheimer 等 人 (2009) 发 现 ， 
这 种 方式 使 得 不 认真 作答 的 情况 整体 得 到 改善 。 

3) 提 供 反 馈 增 加 社会 互动 。 这 类 方法 主要 针 
对 电子 问卷 。 首 先 , 在 被 试 作答 过 快 或 者 连续 选 
择 同 一 选项 时 出 现 弹 窗 提 示 ， 能 够 提升 数据 质量 
(Cibelli, 2017; Zhang, 2013; Zhang & Conrad, 
2018)。 其 次 , 在 电子 问卷 中 ,缺少 与 主 试 之 间 的 
社会 互动 被 认为 是 被 试 难以 维持 填 答 动机 和 认 知 
努力 的 原因 (Fang et al., 2014; Meade & Craig, 
2012)， 因 此 提高 社会 互动 也 是 降低 不 认真 作答 的 
思路 之 一 。 Ward 和 Pond (2015) 通 过 在 电子 问卷 中 
放置 “虚拟 人 (virtual humans)” 的 方式 模拟 纸 笔 测 
验 时 被 试 与 主 试 之 间 的 社会 互动 ,提升 被 试 的 注 
意 力 和 责任 感 。 实 验证 明 当 警告 的 指导 语 与 监督 
的 “虚拟 人 ”同时 存在 时 ,不 认真 作答 在 被 试 中 的 
发 生 率 显著 降低 。 但 Francavilla 等 人 (2019) 的 研 
究 结果 显示 , “虚拟 人 ”的 作用 有 限 ,实验 组 的 被 试 
仅 在 少数 指标 上 表现 更 好 。 再 次 ， 有 研究 进一步 
分 析 了 反馈 中 “社会 性 ”的 作用 ， 即 在 反馈 弹 窗 中 
用 人 脸 图 片 蔡 代 黄色 感叹 号 图 标 ,， 但 结果 显示 这 
两 种 方法 之 间 没 有 显著 差异 (Zhang，2013; Zhang 
& Conrad, 2018)。 此 外 ， 弹 窗 信息 和 “虚拟 人 ”也 存 
在 分 散 被 试 注意 力 的 潜在 风险 (Ward & Pond, 


2015). 
3 不 认真 作答 的 事后 识别 


事前 控制 能 减少 不 认真 作答 的 发 生 , 但 不 能 
完全 避免 ， 因 此 有 必要 在 数据 收集 之 后 ， 对 原始 
数据 中 仍 存在 的 不 认真 作答 数据 进行 事后 识别 与 
剔除 。 已 有 研究 开发 出 许多 事后 识别 的 方法 ， 按 
证 据 来 源 可 划分 为 三 类 : RAGE. RABE 
式 识 别 及 反应 时 识别 。 

31 嵌入 识别 量 表 

Bx AM E Fe duc ERE E oh) i 25 (proactive 
approaches) (Dunn et al, 2018)2& # EL Bc fifi IE 
(direct screening methods) (Desimone et al., 2015), 
FEES JR Rd SR] E rp do AV i e, Bou 
试 不 认真 作答 程度 。 识 别 量 表 题 主要 有 三 类 : 陷 
阱 题 (bogus items) 、 指 示 题 和 自我 汇报 题 
(self-report). 

IBA BERGE, BUTE 2 GT) DLE E n 
“我 于 2 H 30 AHE” (Huang et aL, 2012), “RE 
经 周游 了 世界 92 YR” (Dunn et al., 2018) 等 。 这 类 
题 虽 然 与 周围 题目 一 样 采 用 李 克 特 5 点 或 7 点 计 
分 的 方式 询问 被 试 的 同意 程度 , 但 只 有 “非常 不 
同意 ”是 合理 的 。 如 果 被 试 多 次 在 这 类 题目 上 选择 
其 它 选项 ， 则 会 被 认为 不 认真 。 

2) 指 示 题 ， 即 要 求 被 试 按照 题 干 的 指示 进行 
操作 的 题目 。 例 如 “请 在 本 题 选 择 第 二 个 选项 ” 
(Anduiza & Galais, 2017)、“ 请 跳 过 本 题 ” (Maniaci 
& Rogge，2014)、“ 请 点 击 屏幕 下 方 的 小 圆圈 ” 
(Oppenheimer et al., 2009)。 如 果 被 试 多 次 出 现 不 
按 题 干 指示 作答 的 情况 ， 则 会 被 认为 不 认真 。 

3) 自 我 报告 题 ， 即 直接 询问 被 试 对 自己 认真 
努力 程度 的 主观 判断 。 例如 “我 并 没有 太 在 意 这 些 
问题 的 实际 含义 ”、“ 我 回答 问题 的 时 候 很 粗心 ” 
(Huang et al.，2012)。 这 种 识别 方法 简单 而 直接 ， 
如 果 被 试 承认 自己 作答 不 认真 ， 则 研究 者 也 会 将 
其 标记 。 

识别 量 表 简单 、 直 观 ， 是 最 为 普遍 的 识别 方 
法 , 但 其 也 存在 两 方面 的 问题 ,一 方面 , 不 认真 作 
答 者 未 必 完 全 不 看 题目 ， 若 这 类 量 表 题 和 问卷 主 
体内 容 毫 无 关联 ,被 试 仅 需 动用 极 少 认 知 资源 就 
能 注意 到 ， 因 此 该 方法 只 能 最 低 程 度 地 识别 不 认 
真 作答 。 其 次 , 舱 入 量 表 题 目 过 多 可 能 会 激怒 认 
真 作答 的 被 试 (Costa Jr & McCrae, 2008; Curran, 
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2016; Meade & Craig, 2012)。 
3.2 “作答 模式 识别 

依据 作答 模式 识别 ,也 称 反 应 性 筛 查 (reactive 
approaches)。 此 类 方法 在 数据 收集 之 后 对 被 试 的 
作答 模式 进行 分 析 , 计算 识别 指标 表示 被 试 不 
认真 作答 的 程度 (Meade & Craig, 2012). 识别 逻辑 
主要 有 个 体 一 致 性 (individual consistency) 分 析 和 
奇异 值 分 析 两 种 。 
3.2.1 个 体 一 致 性 分 析 

在 李 克 特 量 表 中 , 不 认真 作答 的 常见 表现 形 
式 为 随机 作答 和 直线 作答 (Curran，2016; Maniaci 
& Rogge, 2014; Meade & Craig, 2012; Revilla & 


合计 算 ISD (Barge & Gehlbach, 2012; Dunn et al., 
2018). 

3) 个 人 信和 度 。 利 用 个 人 信和 度 测量 不 认真 作答 
有 以 下 前 提 假 设 : 每 一 个 子 量 表 都 只 测量 一 个 心 
理 构 念 ; 不 认真 作答 的 被 试 采取 的 方式 是 随机 作 
答 (Curran，2016)。 个 人 信和 度 最 常见 的 指标 是 奇偶 
一 致 系数 (even-odd consistency) (Huang et al., 
2012; Jackson, 1976, 1977; Johnson, 2005; Meade 
& Craig, 2012)。 其 计算 过 程 是 先 将 整个 问卷 分 为 
若干 个 子 量 表 ， 再 分 别 计算 每 个 子 量 表 的 奇数 项 
和 偶数 项 的 平均 值 ， 求 奇数 项 平均 值 组 成 的 向 量 
和 偶数 项 平均 值 组 成 的 向 量 之 间 的 相关 ， 最 后 用 


Ochoa, 2015)。 因 此 ,这 类 指标 假定 ， 如 果 被 试 在 
各 题目 上 的 选项 分 布 过 于 随机 ， 或 过 于 一 致 ， 则 
表明 其 没有 认真 作答 (Barge & Gehlbach, 2012; 
Marjanovic et al., 2015)。 常 见 指标 包括 长 线 系数 
(long string index)、 作答 标准 差 (inter-item standard 
deviation, ISD)、 个 人 信和 度 (individual reliability) , 
正 / 反 向 题目 对 相关 。 

1) 长 线 系数 ， 即 连续 选择 某 一 选项 的 最 长 个 
数 ， 该 指标 对 直线 作答 十 分 敏感 (Meade & Craig, 
2012)。 例 如 ， 当 被 试 在 一 个 10 题 的 4 点 计 分 量 表 
中 作答 模式 为 [1, 1, 1,2, 1,2, 2, 3, 4, 4]， 则 连续 选 
择 同一 选项 的 个 数 分 别 为 [3, 1, 1, 2, 1, 2]， 其 中 最 
大 值 3 即 为 长 线 系数 , 均值 1.67 亦 可 作为 衡量 不 
认真 作答 的 指标 ; 也 有 研究 者 采用 每 个 选项 对 应 
的 长 线 系数 (Costa Jr & McCrae, 2008; Huang et al., 
2012), 在 本 例 中 ,答案 1~4 对 应 的 长 线 系数 分 别 
为 [3, 2, 1, 2] 。 

2) 作 管 标准 差 . 又 称 个 人 作答 变异 系数 
(intra-individual response variability index) (Curran, 
2016; Dunn et al., 2018; Marjanovic et al., 2015)。 


其 计算 公式 是 : 
k Re. 
> 
ISD, = = , 
(k-1) 
其 中 ISD, 表示 被 试 i 的 作 管 标准 差 ，X;, 是 被 
试 i 在 第 g 题 上 的 得 分 ，X, 是 被 试 i 所 有 题目 的 
均 分 , k 是 题目 总 数 。 当 被 试 作答 过 于 随机 时 ,其 
单个 维度 中 的 ISD 会 异常 大 ; 而 被 试 作答 过 于 一 
致 时 ,其 整个 问卷 的 ISD 会 异常 小 (Dunn et al., 
2018; Marjanovic et al., 2015)。 研 究 者 建议 整个 问 
卷 题 量 在 25~150， 单 个 维度 内 题目 大 于 5 时 更 适 


斯 皮尔 曼 - 布 关公 式 进 行 校正 。Jackson (1977) 建 议 
当 奇 偶 一 致 系数 小 于 0.30 的 时 候 ， 可 以 认为 该 被 
试 很 大 概率 作答 不 认真 。Curran (2016) 提 出 一 种 
新 计算 方法 ， 称 作 重 复 取样 个 人 信和 度 (Resampled 
Individual Reliability, RIR) 系 数 ， 与 奇偶 一 致 系数 
3E RH IBI, 但 通过 重复 不 断 的 抽样 (resampling 
and bootstrapping) 获 得 尽 可 能 多 的 分 半 样 本 以 得 
到 更 稳健 的 结果 。 

4) 正 / 反 向 题目 对 相关 ， 是 指 量 表 中 意义 相同 
或 者 意义 相反 的 两 个 题目 组 成 的 题目 对 之 间 的 相 
关 。 其 中 构建 题目 对 的 方法 有 两 种 : 一 种 称 为 “ 语 
义 上 的 (semantic) 题 目 对 ”， 是 在 题目 设计 之 初 制 
定 的 ; 男 一 种 称 为 “心理 测量 上 的 (psychometric) 
题目 对 ”是 通过 数据 驱动 的 方式 进行 构建 的 
(Curran, 2016), 依据 Johnson (2005) 的 建议 ， 可 以 
利用 已 采集 的 数据 计算 题目 间 的 两 两 相关 ， 相关 
系数 在 0.60 以 上 的 题目 对 可 以 构建 成 心理 测量 
的 正 / 反 向 题目 对 。 而 个 人 作答 的 认真 程度 可 以 通 
过 正 / 反 向 题目 对 得 分 的 相关 值 体现 。 

尽管 个 体 一 致 性 的 各 识别 指标 在 理解 与 计算 
上 相对 直观 , 但 被 试 作答 的 一 致 性 程度 受 问 卷 内 
容 、 长 度 和 形式 等 因素 影响 ,这 使 得 各 识别 指标 
很 难 制定 跨 问 卷 的 临界 值 (cutofj， 且 在 有 些 情 况 
下 这 些 指标 的 识别 效果 有 限 。 例 如 ， 利 用 长 线 系 
数 识 别 不 认真 作答 明显 在 短 问卷 中 有 较 大 局 限 性 
(Curran, 2016); 再 者 , 在 某 些 内 容 领 域 (如 态度 、 
适应 性 ) 的 调查 中 ,得 分 分 布 并 非 正 态 ， 而 常常 呈 
现 偏 态 ( 件 智 佳 , 2017; EM, 朱德 全 ,2009; bk 
成 等 , 2012; 郑 云 翔 等 , 2018)， 这 也 就 意味 着 被 
试 选择 很 多 “非常 同意 ”也 是 正常 的 ,又 如 ， 当 问卷 
中 存在 反 向 表述 的 题目 时 ， 对 分 数 大 小 敏感 的 个 
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人 信和 度 、 作 答 标 准 差 等 指标 的 使 用 也 需要 更 加 谨 
慎 (Curran, 2016)。 
3.2.2 ”奇异 值 分 析 

奇异 值 分 析 的 基本 假设 是 “任何 给 定 样本 中 
的 大 多 数 被 试 都 在 认真 思考 并 答题 ”(Curran， 
2016)。 因 此 当 个 人 作答 模式 偏离 群体 程度 过 大 时 ， 
可 以 认为 该 被 试 作答 不 认真 。 和 常见 的 指标 有 : 马 
FG HB BS (Mahalanobis distance) 、 被 试 拟 合 系数 
(individual respondent’s goodness-of-fit score, 
Ror )、 人 总 相关 系数 (person-total correlation), 个 
人 拟 合 指数 (person-fit statistics) 中 的 Guttman 错误 
个 数 (Guttman error), U3 +83. 1, 指数 、 神 经 网 络 
(neural network) 算 法 中 的 自动 编码 器 (autoencoder) 
等 等 。 

1) 马 氏 距 离 (Mahalanobis,，1936), 这 是 一 个 常 
用 的 多 变量 奇异 值 识别 指标 ， 且 在 大 多 统计 软件 
中 可 以 直接 计算 。 和 定义 

MD, = A; — pw) Sx; -u) 

为 第 i 个 样本 的 马 氏 距离 。 其 中 
X; = (xA) 为 样本 i 在 个 维度 上 的 得 分 ; 
B= (8.7) 是 x 的 期 望 ;S$ 是 x 的 协 方差 矩阵 。 
Meade 和 Craig (2012) 通 过 模拟 结果 发 现 ， 马 氏 距 
离 是 一 个 强大 的 探测 不 认真 作答 的 指标 。 
Velleman 和 Welsch (1981) 建 议 用 也 可 以 用 杠杆 值 
hy - — MD! + 判断 奇异 值 ,以 全 或 站 临界 

n-i n n n 
值 ， 其 中 为 变量 个 数 ,n 为 样本 量 。 

2) 被 试 拟 合 系数 (Kountur, 2016)， 其 计算 公式 
如 下 : 


k v \2 
Qt, - X,) 
Ron = De 


g-l d 

其 中 Rori 是 代表 作答 认真 程度 的 被 试 拟 合 系 
数 , X, 是 被 试 ; 在 第 g 道 题 目 上 的 得 分 。X。 是 所 
有 被 试 在 第 g 道 题目 上 得 分 的 均值 。 被 试 拟 合 系 
数 反 映 了 某 个 作答 与 整体 作答 之 间 的 偏差 ， 当 被 
试 偏离 整体 的 程度 越 大 时 ， 被 试 拟 合 系数 的 数值 
越 大 。 

3) 人 总 相关 系数 (Curran，2016)， 即 某 被 试 作 
答 模 式 与 其 他 所 有 人 作答 模式 M 的 相关 系数 
Pxx， 其 中 M =E(X) 。 如 果 人 总 相关 系数 较 低 ， 
则 说 明 该 被 试 的 作答 模式 与 总 体 有 和 较 大 的 背离 ， 
可 能 是 该 被 试 作答 不 认真 。 


4) 个 人 拟 合 指数 ， 在 成 就 测验 领域 使 用 个 人 
拟 合 指 数 来 识别 异常 个 体 已 经 得 到 广泛 认可 , 其 
逻辑 是 比较 分 数 的 观测 分 布 和 理想 分 布 的 拟 合 程 
JE (Meijer & Sijtsma, 2001)。 这 一 逻辑 近年 来 也 被 
迁移 至 问卷 调查 不 认真 反应 的 识别 中 。 其 中 , 理 
想 分 布 需要 使 用 群体 作答 模式 数据 进行 构建 ， 因 
此 通过 个 人 拟 合 指数 进行 不 认真 作答 识别 也 需要 
假定 大 部 分 人 是 认真 作答 者 (Meijer & Sijtsma, 
2001; Wang & Xu, 2015)。 常 见 用 于 识别 不 认真 作 
答 的 个 人 拟 合 指数 有 多 级 计 分 中 Guttman 错误 
(Guttman error) 的 个 数 GP (Emons, 2008; Guttman, 
1944，1950) 及 G^ 的 标准 化 形式 Gh (Emons, 
2008), U3 指数 (van der Flier, 1980) 的 多 级 计 分 版 
Æ U3” (Emons, 2008)、jz 指 数 的 多 级 计 分 版 本 
I} (Melipillan, 2019) 等 等 。 

(DGuttman 错误 个 数 。Guttman 模型 (Guttman 
model) 的 基本 逻辑 是 被 试 应 该 更 容易 在 简单 题目 
上 得 分 。 它 最 开始 被 用 于 成 就 测验 (二 级 计 分 )， 例 
如 ,将 测验 中 所 有 题目 按 正确 率 xs 从 大 到 小 降序 
排列 ， 如 果 被 试 在 靠 前 的 相对 简单 题 上 没有 得 分 ， 
而 靠 后 的 相对 难题 上 得 分 了 ， 则 不 符合 Guttman 
KAY, XU | Guttman 错误 。Guttman 错误 越 多 ， 数 
据 越 异常 。 定 义 Guttman 错误 的 个 数 G 为 : 


Gy 
h,e 


X n 表示 被 试 在 两 道 题 中 相对 难 的 题目 上 的 
得 分 (1 为 正确 , 0 为 错误 )，X,, 表示 被 试 在 两 道 题 
中 相对 简单 的 题目 上 的 得 分 。 

实际 上 , Guttman 模型 也 可 以 扩展 到 多 级 计 分 
中 ,进而 可 以 在 李 克 特 量 表 式 问卷 中 计算 G^ 
(Emons, 2008; Niessen et al., 2016)。 即 基于 优势 模 
型 (dominance model) 的 测量 理论 ， 被 试 的 特质 水 
平 越 高 ， 越 容易 打 高 分 ， 也 就 是 越 容易 跳 过 前 一 
个 选项 (如 , 非常 不 同意 ) 而 选择 后 一 个 选项 (如 ， 
比较 不 同意 )。 此 时 ， 可 以 用 计算 “测验 正确 率 ” 的 
逻辑 计算 每 一 个 题目 的 每 一 个 选项 的 通过 概率 
Tgo Emon (2008) 同 时 提出 G? 的 标准 化 版 本 Gy , 
便于 跨 情境 对 比 。 

QU3 指数 。U3 指数 是 一 种 常见 且 具 有 较 好 
检验 力 (powenD 的 非 参数 个 人 拟 合 指数 (Karabatsos， 
2003)。 它 同样 源 于 成 就 测验 ,在 成 就 测验 中 非 参 
数 个 人 拟 合 指数 的 一 般 表 达 式 为 : 


| 
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r k 
Go 20.28 -2 a 
i r k 
2.35 2 2 out 
其 中 i 为 被 试 编号 , g 为 题目 序号 ,为 题目 总 
数 (g = 1，… E, X, HEWER g 题 上 的 得 分 , r 
为 被 试 答对 的 题目 数 (Meijer & Sijtsma, 2001). we 
为 适应 性 函数 ， 在 不 同 的 个 人 拟 合 指数 中 ws 的 计 
算 有 所 不 同 , 而 在 U3 指数 中 w, ZI = ) G, 


Cg 


的 绝对 值 越 小 ， 异常 程度 越 低 ， 当 G 为 0 nd, 数 
据 符合 Guttman 模型 。 与 Guttman 错误 个 数 一 样 ， 
当 用 题目 的 选项 通过 率 六 代替 正确 率 时 , U3 指数 
同样 可 用 于 多 级 计 分 的 量 表 中 (Emons, 2008)。 
®© LFS% Levine 和 Rubin (1979) 提 出 似 然 
估计 指标 (log-likelihood fib 是 个 人 拟 合 中 研究 应 
用 最 为 广泛 的 指数 。7 指数 属于 参数 个 人 拟 合 指 
数 ， 表示 个 人 得 分 模式 和 IRT 模型 拟 合 的 理想 模 
式 之 间 的 差异 ，1z 指数 即 D 的 标准 化 形式 
(Drasgow et al., 1985). 1 指数 计算 公式 为 : 


k 
is PESCA +(1—X, )In{l - P,(0)]) 
g-l 

在 二 级 计 分 (如 成 就 测验 ) 中 P, (8) 表示 能 
6 的 被 试 在 题目 g 上 答对 的 概率 ; 在 多 级 计 分 中 
Jic P, (0), RANA g 的 选项 x, 的 概率 
(Melipillán, 2019), (782-5 1, th), 异常 程 
度 越 大 。 

35) 自动 编码 器 。 自 动 编码 器 是 非 监 督 神经 网 
络 中 常用 于 识别 高 维度 奇异 值 的 方法 ， 被 广泛 运 
用 于 工程 学 领域 ,Melipillin (2019) 将 其 用 于 识别 
问卷 的 不 认真 作答 。 自 动 编码 器 的 原理 是 将 数据 
先 降 维 编码 ， 再 升 维 解码 ， 比 较 生 成 数据 与 原始 
数据 的 差距 。 对 于 奇异 值 而 言 ， 其 生成 数据 和 原 
始 数据 的 差距 一 般 较 大 。 在 事先 设置 合适 阔 值 的 
情况 下 ， 即 可 标记 奇异 值 。Melipillin 的 研究 中 ， 
利用 自动 编码 器 的 方法 经 过 4 次 迭代 识别 奇异 值 
的 整体 效果 优 于 利用 7 指数 识 别 。 

然而 , 任何 奇异 值 指标 的 效果 都 非常 依赖 整 
个 样本 的 性 质 ， 即 奇异 值 分 析 只 能 说 明 该 被 试 的 
作答 是 否 偏 离 群体 ,无 法 断定 偏离 群体 的 原因 ， 
这 使 得 采用 奇异 值 分 析 识 别 问 卷 中 的 不 认真 作答 
值得 商 椎 。 首 先 ， 低 利害 调查 中 不 认真 作答 的 比 


例 可 能 非常 大 (不 同 于 奇异 值 分 析 常 用 的 考试 领 
域 , 异常 作答 情况 较 少 ), 被 奇异 值 指标 标记 的 异 
常 被 试 很 可 能 是 认真 作答 者 ， 而 不 是 数量 可 观 的 
不 认真 作答 者 。 其 次 ,个 体 在 各 个 题目 上 得 分 不 
同 本 属 正常 现象 ， 当 用 这 种 差异 判定 个 体 是 否认 
真 作答 时 ， 可 能 会 把 一 部 分 认真 作答 的 极端 个 体 
排除 。 最 后 ， 作 假 等 其 他 因素 也 可 能 造成 数据 异 
常 ， 因 此 通过 奇异 值 指标 标记 的 异常 被 试 不 一 定 
是 不 认真 造成 的 。 此 外 ,这 些 奇异 值 指标 也 有 各 
自 的 优势 和 缺陷 例如 马 氏 距离 虽然 可 以 在 大 多 
数 统计 软件 上 直接 计算 , 但 其 要 求 数据 服从 多 元 
正 态 分 布 ， 而 问卷 中 的 数据 常常 难以 满足 这 一 前 
提 (Niessen et al, 2016); 又 如 , 个 人 拟 合 指 数 在 
题 量 较 少时 虽 有 和 较 高 敏感 度 , 但 其 计算 基于 优势 
模型 的 理论 假设 ,可 能 不 符合 态度 调查 的 认 知 过 
fe; 再 如 ， 神 经 网 络 算法 的 结果 难以 解释 ， 且 较 
难保 证 跨 情境 的 稳定 性 。 

3.3 ”反应 时 识别 

一 般 认 为 ， 当 作答 时 间 非 常 短 、 被 试 在 回答 
问题 之 前 完成 基本 阅读 都 是 不 可 能 的 情况 下 ,其 
给 出 的 回答 难以 代表 其 真实 想法 (Huang et al, 
2012)。 反 应 时 阅 值 的 设 定 有 四 种 方法 : 依据 经 验 
设 定 、 观 察 反 应 时 分 布 图 像 、 结 合 其 他 数据 质量 
指标 设 定 以 及 进行 实验 预 试 。 

依据 经 验 设 定 的 反应 时 阅 值 可 以 分 为 绝对 标 
准 和 相对 标准 ， 其 中 绝对 标准 中 运用 最 为 广泛 的 
阅 值 是 Huang 等 人 (2012)* 有 根据 地 猜测 ”的 题 均 2 
f (Curran, 2016; Soland et al., 2019)。 也 有 研究 设 
定 相 对 标准 ，H6hne 和 Schlosser (2018) 总 结 了 过 
往 研究 中 五 个 相对 标准 (如 表 1 所 示 )。 

第 二 种 常见 的 方法 是 通过 观测 反应 时 分 布 图 
像 来 确定 阔 值 。 例 如 ,假设 认真 答题 的 被 试 需要 
BD 5 秒 钟 的 时 间 来 阅读 、 理 解 和 回答 题目 , JD 
么 正常 作答 的 情况 下 ， 时 间 分 布 应 该 大 于 5 f 
但 是 不 认真 作答 的 被 试 可 能 不 需要 5 秒 就 能 完成 
回答 。 在 这 种 情况 下 ， 整 个 群体 的 反应 时 应 该 呈 
双 峰 分 布 (如 图 3)。 最 初 几 秒 内 出 现 的 是 不 认真 作 
答 的 “尖峰 ”， 之 后 是 正常 作答 行为 的 反应 时 (Wise， 
2017; Wise & Demars, 2006; Wise & Kong, 2005)。 

第 三 种 方法 是 利用 其 他 识别 指标 (如 前 述 长 
线 系数 等 ) 与 反应 时 进行 关联 以 帮助 确定 阔 值 ， 或 
者 验证 已 有 阅 值 合理 性 ,Soland 等 人 (2019) 在 世界 
经 济 合 作 与 发 展 组 织 (Organization for Economic 
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表 1 RANE TA (A(Hohne & Schlosser, 2018) 
文献 来 源 BE F BR BEE BRR 
Mayerl (2013) Mean — (2 x SD) Mean + (2 x SD) 
Schnell (1994) Qo — (1.5 x IQR) Q.so + (1.5 x IQR) 
Hoaglin et al. (2000) Q.so = (1.5 x (Q.so = Q.25)) Q.so + (1.5 x (Q.75 — Q.50)) 
Hoaglin et al. (2000) Q.so = (3 x (Q.so - Q.25)) Q.so + (3 x (Qs — Q.s0)) 
Lenzner et al. (2010) Qoi Q o9 
: 布 不 大 时 , 识别 效果 将 会 降低 (Curran，2016); 而 
aN 这 一 点 在 问卷 调查 中 格外 明显 ， 因 为 不 同 于 认 知 
ek ee le 测验 ,问卷 题目 即使 认真 阅读 与 思考 也 无 需 花 费 
长 \ =e 正常 作答 


0 5 10 15 20 25 30 35 
时 间 / 秒 
图 3 快速 猜测 (不 认真 ) 作 答 和 正常 作答 的 反应 时 理论 
分 布 

Co-operation and Development，OECD) 的 学 校 测 
试 数据 中 利用 该 种 策略 ， 首 先 按照 一 定 经 验 准 则 
将 题 均 反 应 时 分 成 若干 区 间 ， 并 分 别 计算 每 个 区 
间 内 被 试 的 长 线 系数 、 反 向 题目 对 相关 、EFA 第 
二 特征 根 的 大 小 、 自 我 效能 问卷 得 分 与 相应 学 科 
成 就 测验 得 分 的 相关 等 若干 指标 。 结 果 发 现 当 题 
均 反 应 时 小 于 2 秒 时 ,以 上 指标 的 表现 都 较 差 。 

最 后 一 种 方法 为 事先 进行 实验 预 试 ，Huang 
等 人 (2012) 在 研究 中 首先 通过 实验 室 的 指导 语 将 
被 试 控制 为 认真 作答 组 与 不 认真 作答 组 ， 并 获得 
两 组 被 试 包括 反应 时 在 内 的 各 项 指标 数据 ; 接着 
他 们 再 固定 特异 性 (specificity) 为 95% 和 99%, 得 
到 各 指标 的 阔 值 与 对 应 的 敏感 度 (sensitivity); 最 
后 将 从 实验 中 获得 的 各 指标 阔 值 运用 于 问卷 调查 
的 筛 查 中 。 

反应 时 由 于 不 受 被 试 作 答 模 式 影响 ,还 可 以 
细 化 到 题目 水 平 进行 评 佑 ， 所 以 较 多 研究 都 发 现 
反应 时 是 有 效 的 不 认真 作答 识别 指标 (Huang et 
al., 2012; Wise & Kong, 2005)。 但 反应 时 也 存在 一 
定 缺陷 :第 一 ,反应 时 数据 获取 困难 ， 只 有 电子 问 
卷 才 可 能 记录 。 第 二 ， 和 其 他 识别 指标 一 样 ， 反 应 
时 能 否 有 效 区 分 正常 作答 被 试 和 不 认真 作答 被 试 ， 
取决 于 不 认真 作答 被 试 在 该 指标 上 和 正常 作答 被 
试 的 重生 程度 ， 当 不 认真 作 管 的 分 布 偏离 正常 分 


太 长 时 间 ， 这 使 得 通过 反应 时 进行 数据 清理 可 能 
存在 较 多 “误杀 ”所 以 也 有 研究 认为 认 知 测验 中 
快速 猜测 行为 与 正常 答题 行为 的 反应 时 理论 分 布 
( 双 峰 分 布 ) 难 以 在 调查 问卷 中 推广 使 用 (Soland et 
al., 2019)。 第 三 , 反应 时 的 增加 并 不 一 定 意味 着 数 
据 质 量 的 增加 (Yan & Tourangeau, 2008), Meade 和 
Craig (2012) 认 为 反应 时 和 数据 质量 之 间 存 在 非 线 
性 关系 ,作答 非常 快 的 被 试 是 不 认真 的 , 但 作答 
韭 常 慢 的 被 试 , 一 旦 超过 既定 的 阔 值 ， 也 可 能 
认为 是 不 认真 的 。 比 如 在 网 络 调查 中 ,反应 时 过 
长 可 能 是 因为 被 试 在 和 他 人 聊天 、 看 电视 或 听 音 
乐 (Barge & Gehlbach, 2012; Borger, 2016). 


4 讨论 与 展望 


不 认真 作答 是 调查 问卷 中 常见 的 噪音 源 ， 本 
文 首先 梳理 了 不 认真 作答 的 相关 概念 ， 接 着 综述 
了 不 认真 作答 的 各 种 事前 控制 与 事后 识别 方法 。 
下 面 探讨 问卷 不 认真 作答 领域 中 ， 有 待 研 究 者 控 
索 和 解决 的 问题 。 

41 基于 不 认真 作答 的 产生 机 制 ， 优 化 与 开发 控 

制 方法 

已 有 研究 发 现 ， 调 整 问卷 表述 或 长 度 、 奖 励 、 
警告 、 弹 窗 提醒 、“ 虚 拟人 ”、 承 诺 及 前 置 指示 题 
均 在 一 定 程度 上 有 助 于 减少 不 认真 作答 的 发 生 ， 
但 这 些 方法 也 可 能 产生 副作用 甚至 反作用 ， 如 外 
部 激励 可 能 导致 被 试 态 度 更 为 散漫 ， 弹 窗 提醒 可 
能 成 为 环境 干扰 分 散 被 试 注意 力 ， 而 “虚拟 人 ” 容 
易 破坏 被 试 作答 体验 等 。 

为 了 避免 或 减轻 控制 方法 的 副作用 、 反 作用 ， 
开发 更 加 有 效 的 控制 方法 ， 必 须 回 答 “ 控 制 方法 
为 何 有 效 ” 的 问题 。 为 此 ， 未 来 研究 可 以 采取 一 定 
技术 手段 (如 有 眼 动脑 电 等) 对 被 试问 卷 作 管 过 程 进 
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行 深 入 细致 的 监控 与 探索 ,， 丰富、 完善 不 认真 作 
答 产 生机 制 及 影响 因素 的 相关 理论 ， 并 结合 这 些 
理论 解释 产生 副作用 、 反 作用 的 原因 ,在 此 基础 
上 对 控制 方法 进行 优化 与 开发 。 

另外 ,未 来 研究 可 以 对 已 有 方法 进行 系统 梳 

， 分 析 现 有 控制 方法 的 具体 作用 。 已 有 研究 常 
02 055 0141. 
指标 上 的 差异 ， 对 控制 方法 是 否 有 效 做 出 回应 ， 
但 是 许多 控制 方法 仅 对 某 些 识别 指标 有 作用 。 因 
此 未 来 研究 可 以 通过 实验 设计 对 各 方法 的 实际 效 
果 进 行 检验 与 比较 ， 并 结合 不 认真 作答 的 产生 机 
制 解释 这 些 方法 降低 了 何 种 类 型 的 不 认真 作答 ， 
为 研究 者 和 实践 者 在 选用 时 提供 参考 。 

42 ”探究 不 认真 作答 识别 指标 的 跨 情 境 适 用 性 ， 
开发 新 方法 

已 有 识别 指标 多 基于 人 格 量 表 或 认 知 测验 开 
发 ， 这 两 类 问卷 具有 题目 较 多 、 得 分 呈正 态 分 布 
等 特点 ， 因 此 许多 指标 在 这 些 问卷 情境 中 有 更 好 
的 适用 性 。 例 如 ， 问 卷 越 长 ， 就 有 越 多 的 题目 能 
来 计算 奇偶 一 致 系数 、 正 / 反 向 题目 对 相关 ， 得 到 
的 系数 也 更 加 稳定 ; 在 得 分 呈正 态 分 布 时 ， 马 氏 
距离 、lz 指数 等 指标 也 更 加 有 效 。 

而 态度 和 行为 调查 这 两 类 社会 科学 领域 同样 
常见 的 问卷 可 能 不 满足 上 述 特征 ,这 会 造成 识别 
指标 有 效 性 下 降 , 例 如 ， 在 许多 态度 问卷 中 ,正常 
被 试 倾向 于 给 出 4 分 或 5 分 (以 五 点 计 分 的 李 克 特 
量 表 为 例 )， 总 体 得 分 呈 负 偏 态 ， 而 一 些 不 认真 作 
答 的 被 试 则 可 能 在 所 有 题目 上 均 给 5 分 。 在 这 种 
情况 下 ,由 于 个 体 作答 内 部 差异 减 小 , 许多 个 体 
一 致 性 分 析 指标 的 效果 下 降 ， 同 时 由 于 与 正常 被 试 
的 差异 较 小 , 奇异 值 分 析 指 标 有 效 性 也 可 能 下 降 。 


方式 判断 识别 指标 的 有 效 性 ， 但 现 有 模拟 数据 的 
参数 特征 可 能 不 适用 于 态度 和 行为 调查 问卷 中 ， 
因此 未 来 研究 可 多 利用 态度 和 行为 调查 的 真实 数 
据 ， 以 提高 研究 的 生态 效 度 与 研究 结果 的 推广 性 。 
4.3 ”局 部 不 认真 作答 的 识别 与 处 理 

尽管 已 有 研究 常 将 被 试 做 “认真 作答 ”与 “不 
认真 作答 ”的 区 分 ,但 真实 作答 情境 中 ,除了 完全 
不 认真 的 被 试 外 ， 也 有 一 部 分 被 试 仅 在 部 分 题目 
中 作答 不 认真 。 例 如 ， 当 问卷 较 长 时 ， 被 试 更 容易 
在 中 间或 后 半 部 分 因 疲 劳 或 失去 兴趣 从 而 表现 出 
不 认真 作答 (Baer et al., 1997; Berry et al., 1992; 
Meade & Craig, 2012)。 当 局 部 不 认真 出 现时 , 般 
人 量 表 的 错 答 次 数 、 个 体 一 致 性 指标 、 奇 异 值 分 
析 指 标 均 可 能 介 于 完全 认真 与 完全 不 认真 的 被 试 
之 间 , 与 完全 认真 作答 的 相似 性 取决 于 其 局 部 不 
认真 的 比例 。 这 种 情况 下 ,通过 已 有 指标 可 能 难 
以 将 其 识别 出 来 。 目 前 ， 对 此 情况 仅 Dunn 等 人 
(2018) 指 出 ， 可 以 灵活 地 选择 部 分 连续 题目 ， 计 
算 作答 标准 差 ， 探 测 被 试 在 选中 题目 上 是 否认 真 
作答 。 例 如 ， 当 问卷 较 长 时 ， 可 以 在 较为 靠 后 的 位 
置 选 择 若干 题目 ， 判 断 哪 些 被 试 因 疲劳 等 原因 出 
现 局 部 不 认真 。 但 是 ， 被 试 未 必 都 在 这 一 部 分 才 
出 现 不 认真 作答 。 特 别 是 电子 问卷 兴起 后 ， 被 试 
的 作答 环境 无 法 控制 ， 被 试 可 能 在 任何 作答 时 间 
内 受到 外 界 干扰 。 因 此 ， 如 何 采 用 更 灵活 的 手段 
识别 被 试 不 认真 作答 的 部 分 可 成 为 未 来 研究 的 
方向 之 一 。 

此 外 ， 当 成 功 识别 出 被 试 不 认真 作答 的 部 分 
时 ， 对 这 部 分 数据 的 处 理 也 有 待 进一步 研究 。 知 
删除 该 被 试 的 全 部 数据 ， 则 是 对 有 效 数 据 的 浪费 ; 
但 仅仅 剔除 不 认真 作答 的 数据 ， 又 会 产生 数据 非 


因此 ,未 来 研究 需要 重点 关注 不 同 指标 的 跨 
情境 适用 性 。 对 态度 和 行为 调查 而 言 ， 一 方面 ， 结 
合 现 有 各 指标 的 特点 ,组 合 使 用 多 个 指标 ， 以 应 
对 单一 指标 识别 效果 不 佳 的 问题 。 但 当 指 标 联 合 
使 用 时 ， 要 对 这 些 指标 各 自 能 识别 什么 样 的 不 认 
真 作答 模式 有 更 清楚 的 认识 ,进而 针对 各 类 型 的 
不 认真 作答 模式 ， 有 选择 地 使 用 若干 相应 指标 。 
另 一 方面 ,可 以 开发 新 指标 ， 以 应 对 已 有 指标 不 
适用 的 问题 ,尤其 可 以 关注 个 人 拟 合 指数 、 机 器 
学 习 的 应 用 ， 相 较 于 人 总 相关 系数 等 传统 方法 ， 
这 些 方法 在 奇异 值 识 别 上 更 加 精准 。 

另外 需要 注意 ， 现 有 研究 多 采用 模拟 研究 的 


随机 缺失 的 风险 。 即 使 能 够 排除 非 随机 缺失 情况 ， 
不 认真 作答 的 数据 也 并 非 缺 失 数据 ， 而 是 不 够 准 
确 的 数据 , 它 同 样 代表 了 被 试 的 部 分 倾向 ， 因 此 
是 否 利用 插 补 处 理 、 以 及 用 何 种 插 补 方法 都 值得 
进一步 探讨 。 


5 人 小结 


= 


BORD Zo FE AE AMT PS ARAB A IES FF 45 hi n] $8 
的 答案 。 研 究 者 与 实践 者 对 这 一 现象 更 不 能 盲目 
乐观 或 选择 性 无 视 ， 而 应 当 在 利用 问卷 收集 数据 
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这 类 噪音 数据 ， 使 得 数据 尽 可 能 真实 .准确 ,以 便 Chang, J. (2009). Multitasking across generations: 


A 
后 续 得 到 可 靠 的 分 析 结 果 。 
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Preventing and detecting insufficient effort survey responding 


ZHONG Xiaoyu, LI Mingyao, LI Lingyan 


(Collaboration Innovation Center of Assessment toward Basic Education Quality, 


Beijing Normal University, Beijing 100875, China) 


Abstract: Surveys are commonly used in psychological and educational research. Insufficient effort 
response (IER), as one source of invalid response data, is somewhat prevalent due to the low-stakes nature 
of the majority of surveys, which often leads to statistically significantly biased estimates and invalid 
inferences. The current literature shows: (a) IER is commonly believed to be caused by some inner causes, 
(e.g., low motivation), showing as specific patterns, (e.g., random responding); (b) The most common 
methods to prevent IER include reducing task difficulty and increasing respondents’ motivation; (c) Current 
detection methods fall into three main categories, which are proactive approaches/ direct screening methods, 
response patterns analysis, and response time analysis. Recommendations for future research directions and 
practitioners are (a) deepening the investigation on IER mechanism and improving the preventing methods, 
(b) examining the effectiveness of IER identification methods’ applicability of cross-situation and 
developing new approaches, and (c) delving into the identification and treatment of partial IER. 

Key words: insufficient effort responding (IER), data screening, invalid response, survey and questionnaire 


design & construction 


